蚂蚁百灵发布新模型Ling-2.6-flash 推理成本仅为同类十分之一网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>数字生活>蚂蚁百灵发布新模型Ling-2.6-flash 推理成本仅为同类十分之一

蚂蚁百灵发布新模型Ling-2.6-flash 推理成本仅为同类十分之一

作者：来源：网经社发布时间：2026年04月22日 15:43:24

(网经社讯)4月22日，蚂蚁集团百灵大模型团队推出新款Instruct模型Ling-2.6-flash。据网经社AI台（AI.100EC.CN）获悉，该模型总参数量1040亿，激活参数量74亿，采用混合线性架构，是一种高度稀疏化的MoE设计。模型已通过API开放，输入每百万tokens定价0.1美元，输出0.3美元，首周提供免费试用。

此前一周，一个名为Elephant Alpha的匿名模型在OpenRouter平台上线，调用量迅速攀升，连续多日位列Trending榜首，日均tokens调用量达100亿级别，周增长超过5000%。百灵今日确认，Elephant Alpha正是Ling-2.6-flash的匿名测试版本。

在性能方面，Ling-2.6-flash在4卡H20环境下推理速度最快可达每秒340个tokens，稳定输出为每秒215个tokens。其Prefill吞吐量达到Nemotron-3-Super的2.2倍。在Artificial Analysis的完整评测中，该模型仅消耗1500万tokens完成全部评测任务，而同类模型需要1.1亿tokens以上，消耗约为后者的十分之一。此外，模型针对Agent场景做了定向增强，在BFCL-V4、TAU2-bench、SWE-bench Verified等多项基准测试中达到同尺寸模型的最佳水平。

从行业对比来看，MoE架构已成为大模型的主流技术路线。DeepSeek-V3总参数6710亿，激活参数370亿；阿里通义千问Qwen3.5-35B-A3B总参数350亿，激活参数30亿；字节跳动豆包2.0 Pro总参数7440亿，激活参数约40至44亿。各家都在围绕激活参数优化，试图在模型能力与推理成本之间寻找更优平衡点。当模型厂商纷纷将成本效率作为核心卖点时，用户在实际业务场景中究竟更看重单位token成本，还是模型解决复杂任务的鲁棒性？这个问题的答案，可能比任何技术参数都更能决定下一代大模型的市场走向。

浙江网经社信息科技公司拥有18年历史，作为中国领先的数字经济新媒体、服务商，提供“媒体+智库”、“会员+孵化”服务；（1）面向电商平台、头部服务商等PR条线提供媒体传播服务；（2）面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务；（3）面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务；（4）面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库（DATA.100EC.CN，免费注册体验全库）基于电商行业18年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。